# !/usr/bin/python
# -*- coding: utf-8 -*-
"""
@文件    :   Students_Duplicates.py
@时间    :   2022/05/26 14:45:06
@作者    :   YTNetMan
@版本    :   1.0
@邮箱    :   ytnetman@163.com
@版权    :   (C)Copyright 2022-2025
@分类    :   办公自动化
@功能    :   去除重复项，数据清洗
            drop_duplicates()方法  去除重复数据
            duplicated()    定位有多少重复项
            loc函数：通过行索引 “Index” 中的具体值来取行数据（如取"Index"为"A"的行）
            iloc函数：通过行号来取行数据（如取第二行的数据）
"""

import pandas as pd

students = pd.read_excel('./doc/Students_Duplicates.xlsx')

#去除重复数据
#dupe = students.drop_duplicates(subset='Name',inplace=True)

#定位有几个重复数据
dupe = students.duplicated(subset='Name')
#取出重复数据索引
dupe = dupe[dupe==True]
#根据索引定位到DataFrame中的数据
#students = students.iloc[dupe.index]
students = students.loc[dupe.index]
print(students)
